美国商务部就开放数据资产、开发人工智能寻求公众建议
美国商务部致力于引领生产和传播高质量的公共数据,商务部的数据资产促进了美国的科学发现、创新和经济增长,是国家的宝贵资产。商务部作为首要的数据提供者,长期以来一直在适应技术变革。在过去的40年里,商务部将数据发布工作转移为了电子形式;在过去的20年里,商务部提供了支持发现和检索商务部数据的服务和工具;在过去的5年里,商务部承诺以机器可读的格式开放其数据资产。
如今,商务部面临着人工智能技术的新变革,这些技术改进了用户对数据的访问。商务部特别关注生成式人工智能(GenAI)应用,它可以处理来自文本、图像、音频、视频等不同来源的信息,并生成新的内容。GenAI和其他人工智能技术为商务部等数据提供者和其他政府实体、行业、学术界和美国民众等数据使用者带来了机遇和挑战。人工智能已经给许多行业带来了变革性的变化,包括医疗、金融、教育和交通,而GenAI有望通过使普通人能够以前所未有的方式参与数据,实现数据的民主化。最近的GenAI工具允许用户输入简单提示,与这些工具从各种来源收集的内容进行交互(包括商务部的公共数据)。
人工智能工具需要大量可靠信息,才能准确地响应其用户的需求。随着人工智能应用变得越来越复杂并融入日常生活,高质量数据的作用变得日益关键。作为权威的数据提供者,商务部面临的挑战是确保这些新的人工智能媒介可以适当地访问其数据,而不会失去数据的完整性和质量。作为关键的数据生产者,商务部认识到,为了让人工智能系统能够利用其数据进行训练和进行即时数据检索,其数据可能需要以易于处理的格式重新配置。人工智能工具越来越多地用于数据分析和数据访问,因此商务部希望确保这些工具使用的数据是易于访问和“机器理解的”,而不仅仅是“机器可读的”。
到目前为止,商务部已经通过结构化的API公开其公共数据,并正在制定丰富的元数据标准来描述其数据资产。目前,商务部的元数据标准主要关注的是发现数据资产,而不是便利AI系统使用这些数据资产,但商务部认为改变这一焦点具有价值。商务部希望进一步了解如何使其数据资产AI可用。
具体而言,商务部希望了解和探讨的问题包括:
数据分发的标准
应采用哪些数据分发的标准以支持实现人类可读和机器可理解的公共数据? 应优先考虑哪些格式、元数据和文档以促进AI应用? 当涉及到元数据标准时,原始数据(例如来自传感器网络的数据)与衍生数据(例如来自美国人口普查局的统计数据)有何不同? 应考虑哪些数据许可实践、标准和使用考虑,以支持其数据集和元数据的广泛、公平和开放访问? 目前存在哪些或正在开发中的标准,商务部应该考虑清楚地表明其公共数据可供AI系统使用(或表明对该数据的任何附加条件或限制)? 数据可访问性和检索 商务部的数据资产如何才能更易访问、对AI社区更有价值(例如,改进的API访问、网页的爬取等)? 商务部如何开发直观易用的数据门户,以便轻松浏览和检索数据集? 商务部在传播我们的AI准备数据时应考虑哪些用户?商务部应该确保考虑哪些非典型用户? 应采取哪些措施来实现用户友好的界面,包括清晰的标签和可读的格式,用于商务部的在线数据资源? 商务部如何更好地了解用户对其数据的需求?以及如何投资使其数据更适合AI的回报?
合作参与
行业和学术利益相关者如何与政府合作,以塑造设计和传播AI准备的开放数据? 合作的潜在领域是什么,行业和学术界如何为增强数据质量、完整性和AI目的的用途做出贡献?
数据完整性和质量
行业在使用AI应用程序时增强公共数据的完整性和准确性方面采用了哪些最佳实践?数据验证和验证的最佳实践是什么?在AI应用程序中定期进行审计和质量检查的最佳实践是什么? 我们如何共同应对与真实性偏见、隐私、数据质量、公平性和道德使用有关的挑战,同时保持透明度和问责制? 可以制定什么安全协议来减轻未经授权的数据访问和操纵的风险? 商务部如何促进数据采集和处理方法的透明度,以增强信任和可靠性?对数据质量的报告期望是什么,我们如何确保信息将被传递并呈现给最终用户? 可以建立什么验证过程来保持和验证数据的准确性和一致性? 商务部如何促进复制和分析的全面透明的数据文档?
数据伦理
建立清晰的法律和道德准则以确保AI数据的使用,保护隐私权,维护财产权,并专注于公平的结果需要采取哪些步骤? 商务部可以实施哪些政策来识别和减轻AI算法中的偏见,包括确保多样化的数据表现? 优先考虑数据完整性和准确性的道德数据收集、处理和存储的最佳协议是什么?
产品服务
01
前瞻研究
02
03
数据信任与治理
“数据信任与治理”由下一代互联网国家工程中心运营。放眼全球数据治理前沿理论与实践进展,探索可信数据治理的中国模式,促进数据要素有序流通,释放数字经济红利。
TDG focuses on the cutting-edge theory and practice of global data governance, explores the Chinese model of trusted data governance, promotes global data flow, and fulfills the potential of the digital economy.